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АСТНОВУЯНІР АТТВІВОТІОХ 5У5ТЕМ 


Було розроблено систему ідентифікації та перевірки авторства документа, побудовану на основі 
машинного навчання. Оригінальність моделі обумовлена запропонованим унікальним профілем ознак автора, 
що дозволив, із застосуванням методу опорних векторів (5 УМ), отримати високі показники точності. 
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А пем еНесіїує 5узієт Їог ідепіїйсайоп апа уегійсайоп ої кехі апіфог5рір Ба5 Бесп деуеіоредй. ТРе 
зузіега 15 сгеаїед оп їБе Ба5е ої тасріпе Іеагпіпє. ТБе огієіпайу ої Фе ргорозей подає! 15 сац5ед Бу Пе ипідие 
ргоїііе ої Ше ацірог айтібиієє Шаї аПом/5 реіпє ехіга-Бієб регіогпапсе ассигасу иц5іпе Ше пефой ої пе 
Зиррогі Месіог Масріпе (5УМ). 

Кеуууогаз: ашірог5рір ідепіїйсацоп, пасріпе Ісагпіпє, зиррогі уесіог пласріпе 


Вступ 

Ідентифікація та перевірка авторства є унікальною 1, водночас, дуже 
затребуваною задачею, з огляду на можливість застосування у різних сферах діяльності 
людини: для боротьби з плагіатом, для встановлення авторства анонімних текстів, для 
експертизи та встановлення особистості в криміналістиці та у багатьох інших задачах 
та напрямах. Задача є також дуже складною через фундаментальну проблему 
формування набору ознак, за якими можна оцінити ймовірність належності тексту 
певному автору. Задачу ускладнює також той факт, що до останнього часу для 
розроблених систем визначення авторства текстів необхідною умовою Їх стійкої та 
якісної роботи була наявність великих об'ємів авторських текстів у навчальній вибірці. 
Ще однією вадою розроблених моделей є їх якісне обмеження на кількість авторів. 
Якщо у випадку наявності текстів 3-4 авторів у навчальній та тестовій вибірках навчені 
класифікатори впевнено демонструють до 8596 точності визначення автора тексту у 
тестовій виборці, то зі зростанням кількості авторів у вибірках до 6 та вище точність 
класифікації різко падає до 60-559/0. 

Авторами було розроблено систему визначення авторства текстів за умови 
наявності мінімального набору текстів для кожного автора у навчальній вибірці (від 5К 
текстів на кожного автора) та із кількістю авторів до 20. 

Система являє собою набір класифікаторів для визначення ідентичності 
авторського стилю в тексті. На вхід системи подається документ із заявленим 
авторством і-того письменника. Система перевіряє, наскільки поточні значення ознак 
вхідного тексту відповідають «еталонним» значенням ознак даного автора. На основі 
аналізу значень ознак тексту, система підтверджує або спростовує факт приналежності 
тексту заявленому автору. 

Система має дворівневу архітектуру. На першому рівні ряд класифікаторів 
обчислює оцінку приналежності тексту тому чи іншому автору (з кількості авторів, на 
яких система навчена). На другому рівні вирішується оптимізаційна задача 
встановлення єдиного автора тексту, на основі аналізу рішень окремих класифікаторів 
першого рівня. Якщо, в результаті аналізу рішень, буде встановлено, що текст містить 
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фрагменти текстів, котрі стилістично не належать заявленому автору, то система 
робить відповідний висновок. 

На стадії навчання класифікатори 1-го рівня навчаються розпізнавати тексти 
конкретного 1-го автора. Навчання проходить на наборі текстів даного автора, в яких 
присутні 10096 ідентичні тексти і-го автора 1 його ж тексти, розбавлені в різних 
пропорціях фрагментами інших авторів навчального корпусу (всього корпус містив 15 
авторів). Кожен класифікатор вчиться розпізнавати 10090 ідентичні тексти свого автора 
серед текстів з домішками інших авторів. Як базовий алгоритм машинного навчання 
класифікаторів застосовується лінійний метод опорних векторів (5УМ). При цьому 
використовуються набори багаторівневих ознак-властивостей тексту: 

1) ознаки пунктуаційного рівня (статистика розділових знаків); 

2) ознаки морфологічного рівня (статистика сполучень літер); 

3) ознаки лексичного рівня (М-грами, статистика стоп слів, статистика універсальних 
слів і т.д.); 

4) ознаки синтаксичного рівня (М-грами частин мови, частоти синтаксичних зв'язків 1 
т.д.). 

Після того, як кожен класифікатор на відповідному розміченому наборі текстів 
навчився розпізнавати свого автора, слідує другий етап навчання, що складається в 
підборі ваг пріоритетів класифікаторів для вирішення колізій, коли одночасно кілька 
класифікаторів ідентифікують авторство їх письменника. 

Після завершення навчання, система функціонує наступним чином. На вхід для 
перевірки авторського стилю надходить документ з позначеним автором. Документ 
проходить обробку послідовністю лінгвістичних процесорів, у результаті чого 
визначаються всі необхідні характеристики вхідного тексту. Це дозволяє системі, на 
основі отриманих властивостей, обчислити значення для всіх ознак побудованої моделі 
тексту. Отримані значення ознак використовуються навченими класифікаторами для 
визначення авторства вхідного тексту. Якщо виникає колізія, 1 відразу кілька 
класифікаторів визначають документ як текст свого автора, то ваги пріоритету 
дозволяють вирішити колізію і визначити єдиного правильного автора. У разі 
неможливості визначення автора приймається рішення про наявність в тексті 
запозичених фрагментів. 


Характеристики системи 

Система призначена для аналізу текстів англійською мовою обсягом від 800 слів, 
без сленгу та спеціальної лексики, структура тексту має бути подібна до структури 
новинної статті або есе і не містити великої кількості цитат, діалогів або інших 
фрагментів специфічної структури. Для кожного тексту вказаний автор (його ПР). 
Система повинна перевірити авторство (за принципом істина/хиба) для кожного 
документа. Документ складається з авторських фрагментів-абзаців та/або запозичених 
абзаців-фрагментів. Абзац-фрагмент тексту виділений на початку 1 кінці символами 
переходу на новий рядок. Розмір абзацу - від 70 слів. Запозичені у інших авторів 
фрагменти можуть відрізнятися або збігатися за тематикою з основним текстом. 
Пропорція авторських фрагментів до запозичень у тексті випадкова (всі фрагменти 
можуть бути як авторськими, так і запозиченими). 

Для попереднього навчання авторському стилю, системі повинна бути надана 
навчальна вибірка авторських текстів сумарним об'ємом від 12000 слів для кожного 
автора. Кількість авторів у системі не перевищує 15-20. 
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Метод 

У зв'язку з відносно невеликими об'ємами наявних даних, було прийняте рішення 
щодо аналізу кожного автора окремо, в подальшому дана модель отримала назву 
«Доситепі Базей», тоді як модель, що аналізує кожен текст автора окремо, отримала 
назву «Кіїе Ба5ед». Далі в цьому розділі розглядаються особливості функціонування 
кожної з моделей. 

Роситепі Разеа версія заснована на припущенні, що для визначення авторського 
стилю необхідно отримати максимально можливу кількість авторського тексту. Для 
реалізації даного принципу всі доступні тексти одного автора об'єднуються у доку- 
мент, який потім аналізується системою. Перевагою даного підходу є отримання більш 
точних та більш згладжених статистик. Наявність великої кількості даних дозволяє: 

1. Гарантовано перейти від ознак, специфічних для конкретного тексту, до ознак, 
специфічних для автора. Наприклад, авторський текст, написаний для персонального 
блогу, може стилістично суттєво відрізнятися від тексту автора в газетній або 
науковій статті. Причому відрізнятися може як лексика, характерні звороти, знаки 
пунктуації (неформальне листування містить більше знаків питання та оклику), так 1 
структура речень. Побудова гіпотез для машинного навчання на базі різнорідного 
тексту дозволяє створити універсальні гіпотези, що будуть ефективно працювати на 
будь-якому типі тексту, за умови, що такий тип входив до документа. 

2. Отримати згладжені статистики за рахунок більшої кількості різнорідних даних. 
Збільшення довірчого інтервалу дозволяє системі виявити авторський стиль у 
документах з кращою точністю. Будь-яка зібрана статистична інформація 
(наприклад, середня кількість літер у слові) стає незалежною від стилю тексту 1 
краще відображає авторський шаблон. 

Кііе Бахеа версія моделі розглядає кожен файл окремо 1 збирає інформацію для 
гіпотез. Деякі гіпотези подаються в модуль машинного навчання «а5 15», інша 
інформація усереднюється по кожному з авторів для отримання характеристик 
авторського стилю, близьких по якості до Фоситепі Базей моделі. 

Результатом обробки вхідних даних з навчальної вибірки для дФоситепі Базей 
моделі є унікальний вектор авторських ознак для кожного автора. Результатом обробки 
вхідних даних для Не Ба5ей моделі є набір векторів по кожному окремому автору. На 
етапі навчання модель підбирає коефіцієнти для кожної позиції вектора, після чого 
модель вважається навченою і може класифікувати нові тексти. 


Реалізація 

З точки зору машинного навчання (Масріпе Іеагпіпє, МІ,), задача визначення 
авторства зводиться до задачі класифікації тексту - система повинна віднести текст до 
одного з п'ятнадцяти класів - типова задача мультикласифікації. 

Навчання доситепі базейд моделі проходить на наборі текстів кожного автора, в 
яких містяться його 100906 ідентичні тексти, а також - його тексти, розбавлені в різних 
пропорціях фрагментами інших авторів з навчального корпусу (всього корпус містить 
15 авторів). Кожен класифікатор вчиться розпізнавати 10096 ідентичні тексти свого 
автора від текстів з домішками інших авторів. 

Навчання бе Ба5ей моделі проходить на наборах текстів кожного автора, кожен 
текст 10096 належить одному автору, домішки недопустимі. Так як і в попередньому 
випадку, кожен класифікатор вчиться розпізнавати тексти свого автора. 

Як базовий алгоритм машинного навчання класифікаторів, застосовується 
лінійний метод опорних векторів (Ппеаг З5МУМ). Для реалізації моделі викори- 
стовувалася мова Руфоп та пакети 5сіКії-Іеагп |1| та питру |2). Етап виділення 
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інформативних ознак був найскладнішим у роботі, як базовий набір були реалізовані 
ознаки (Кеаїиге5) зі статей |3-9). Деякі з цих ознак виявилися неефективними для даної 
задачі. Наприклад, аналіз помилок, описаний в статті |6|. Не спрацювали і такі ознаки, 
як угогд М-єгатя, описані в |4), такі популярні ознаки, як повнота і об'єм словникового 
запасу |3|Ї. Виникло припущення, що дані ознаки можуть добре працювати у випадку, 
коли автори пишуть на одну фіксовану тематику, але не у випадку набору текстів з 
корпусу новин. Зі схожих причин не спрацювали такі ознаки, як довжина сло- 
ва/речення, типова перша/остання літера слова/речення, частоти сполучення слів та 
деякі інші. 

Від таких ознак, як дФерепдаепсу ігіріеїв |3|, К-ее 5ифігее шаблон |8| довелося 
відмовитися через незначний приріст точності у моделі при великій складності 
обчислення цих ознак. 

До результуючого набору ознак для визначення авторського стилю увійшли: 

1) ознаки пунктуаційного рівня (статистика розділових знаків, їх середні значення 
(паеапз5) 1 стандартне відхилення (5іапдага деутаоп)); 

2) ознаки морфологічного рівня (статистика буквосполучень та букв); 

3) ознаки лексичного рівня (статистика стоп слів, статистика універсальних слів, 
авторських слів і т.д.); 

4) ознаки для оцінки середньої схожості-зв'язності речень на базі методу| 10; 

5) ознаки синтаксичного рівня (М-грами частин мови, частоти синтаксичних зв'язків, 
частоти застосувань правил виведення (з граматик Хомського) 1 т.д.). 

6) складні ознаки на базі векторного представлення статистики використання слів, 
обчислені на тестовому корпусі. 

Після завершення етапу навчання множини класифікаторів (кожен розпізнає свого 
автора), слідує другий етап навчання, де проводиться підбір ваг коефіцієнтів для вирішення 
колізій, Колізією є випадок, коли одночасно декілька класифікаторів ідентифікують текст як 
такий, що належить їх автору. Спеціальний метод ОМК (опе-уз-ге5і) вирішує ряд 
оптимізаційних задач з підбору ваг пріоритетів для класифікаторів, щоб мінімізувати 
кількість помилок розпізнавання на навчальному наборі текстового корпусу. 


Методика випробувань 

При виборі методики оцінювання системи, ключову роль зіграли такі фактори, як 
повторюваність та всебічність оцінки. Метою було створити єдиний корпус, на якому 
інші дослідники могли перевіряти точність нашої системи, а також виміряти та 
порівняти результати своїх систем на тому ж тестовому наборі текстів. У період 
розробки системи, її тестування та оцінка проводилися на авторських текстах статей з 
Тре У/азпіпоїоп Розі, Тре Мем/ Уогк Тіте8, Тре Райу Теіеєгарі, Тре Тіте8, Тре МАі!! 
Зпгееї Уошпа! та з інших західних англомовних видань. Однак, політика використання 
даних текстів забороняє їх вільне розповсюдження. Отже, повторення отриманих 
результатів стає складним у даному випадку. 

Після закінчення розробки системи, її перевірка на стабільність проходила на текстах з 
блогу компанії РІК (11). Був зібраний корпус з трьох авторів, по десять випадкових текстів 
кожного автора. На даному корпусі Фосштепі Базей версія системи показала досить низькі 
результати через специфіку її навчання на малій кількості авторів -- система мала всього три 
приклади для навчання (по одному документу, складеному з усіх текстів автора). Очевидно, 
що така кількість прикладів не є достатньою для пласріпе Іеагпіпе алгоритмів. На цьому етапі 
була створена Біе Базей версія, яка здатна працювати з наборами даних, починаючи від двох 
унікальних авторів. 
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Базовим корпусом для оцінювання систем визначення авторства пропонується 


використовувати КСУМІ аїазеє (Кеціег5 Согри5 Моїште І) П2|. Для забезпечення 
повноти оцінки, КСУ І була відсортована за авторами, після чого було виділено шість 
окремих наборів даних. Для кожного набору даних описано, тексти яких авторів туди 
були включені і кількість статей кожного автора. Автори відбиралися в алфавітному 
порядку «а5 15» 1 не нормалізувалися за кількістю статей. 


І. 


Рага5есд - містить 15 авторів, 37 текстів, загальним об'ємом 107.738Б сумарно, 
тексти кожного автора в КСУІ займають від АКБ до 9КБ: А.Н. Уооп(Дст., 7160Б); 
АБацз 5апаг(Ост., 4219Б); Аадат Сашідо(ст., 56435); Аає! АРи Міїтеп(Зст., 7609Б); 
Лапіап Віит(Ост., 4917Б); Аап НоукіпУ(Ост., 6165Б); АІекзапааг Мітс(Ост., 5985Б); 
Аехіз Зіпаапі)о(Зст., 91335); АПкКПап Тазиуеу(2ст. 6303Б); Атапаа Зийх(Зст., 
9992Б); Апа Іхабе! Магкіїпег(Зст., 90025); Апазіаз Реїоу(Зст. 8884Б); Апатеа 
МсеРапігіз(Зст., 5895Б); Апатез5 Кепаоп(Зст., 9219Ь); Апагеуг Вагітат(Ост., 7662Б) 


. Дасазеї! - містить 15 авторів, 191 текст, загальним об'ємом 542.732Б сумарно, 


тексти кожного автора в ЕКСУІ займають від 24КБ до 53КБ: АРаоиіаує 
Мавзаіаїсні(ІЗст., 34697Б); Аяпез Тзапе(І Іст., 364425); Аап Ріскеу(ІЗст., 25340Б); 
АБегіо | Ропіех(І9ст. 498965); | АЇекзапат5  Когеп5(ІЗст.  43649Б); | АМгеао 
Акапаа(12ст., 35369Б); АШеи ІРгапіт Катага( І 2ст., 381785); Аїта РДамапго(І0ст., 
322755); Атіау Капі/ап(Іст., 32091Б); Апаегзоп Китиані(14ст., 28689Б); Апатій5 
Ийкапсаз5(І2ст., 244985); Аппа 5тітпоуа(!І Їст., 40750Б); Аппа ЙагаепРите( І8ст., 
331415); Апіуот Рапігеіуапці І Їст., 36829Б); Азпок Рапаіман(ІОст., 25909Б). 


. Драказей? - містить 15 авторів, 848 текстів, загальним об'ємом 2.533.525Б сумарно, 


тексти кожного автора в КСУІ займають від 13ОКБ до 197КБ: АБбаз 5аїтап(33Зст2., 
1566435Б); АРасіагіг Ваггойпі(54ст., 140427Б); АЇ Уооп(бдст.,  190592Б); Аіап 
Кісзпек(А8ст., 162607Б); Аіехапаєк Міез(54ст., ІЗ9600Б); АП Воигетаа(74ст., 
197417Б); АПпе уап РДиуп(5/ст., 192188Б); АПзоп Іеип?(42ст., І30917Ь); АШап 
Роуа(У5дст., 1370455); АПап ЗессотРе(70ст., 195957Ь); Апатгеа Норкіп5(47ст., 
154429Б); Апагеу» СШЯЗст., 191142Б); Апагеу» Зіееіе(50ст.,  186356Б); Апагеуу 
Уегп(5ст., 170870Б); Апау Сарозіатто(84ст., 1873325). 


. Ррака5ей3 - містить 15 авторів, 1554 тексти, загальним об'ємом 5.107.210Б сумарно, 


тексти кожного автора в КСУІ займають від 300КБ до 389КБ: Абізаї! Геуепе(9Іст., 
330243Б); Ааат Сох(ЗАст.  300655Ь); Аа4ат Епіои5(І08ст. 330949Б); Аагіап 
Еаумматаз (104ст. 324003Б); АПзіаї» Вей(ІОбст., 362574Б); АїЇмег Сагізопі( І Іст., 
345038Б); Апагеу» Ниадані(97ст., 324710Б); Апагеу КеПу(99ст., ЗЗІБОЇБ); Апагеуу 
Матз пай (98ст., 324779Б); Апагеуу» Тагпоуукі(З8ст., 305340Б); Апіз Айтеа(99ст., 
316438Б); Акгітиг Ма/и-Маіц(124ст., 372795Б); Ветгпата Каїпеет(120ст., 3883125); 
Втіап 5роог5(102ст., 3717365Ь); Сагтеї! ІГіппапе(123ст., 378037Б). 


. ДБаказеі4 - містить 15 авторів, 2440 текстів, загальним об'ємом 8.156.620Б сумарно, 


тексти кожного автора в ЕКСМІ займають від 504КБ до 593КБ: Аагоп 
Руез5тап(І87ст., | 587900Б); | Апаїоїу | Уекфіп(145ст. 541457Б); | Апспаієе 
Коеїзамате (І 79ст., 5399215); Апатеу» Стау(164ст., 526620Б); Апагеу» Нит5 (145ст., 
545520Б); Апіоп Кегтгеїга(Іб6Зст., 518143Б); АзПига/ Коицай(Іб4ст., 519588Б); Веп 
Ніг5спіек(17 Іст., 568846Б); ВШ Такгаті(142ст., 552036Б); Вгааіеу РеггеціІ 9Зст., 
5823585); Втіап  ИйШат5(153ст., 526793Ь); ВисПігуа Мхуетека(1 74ст., 593874Б); 
Сагоїйпе  Вгоїет5(І4бст.  541194Б); | Сйгіз | Віка(155ст.  507969Б);  Рапігеі 
Уегпо 15 Іст., 50451 1Б). 


. Дака5еб5 - містить 15 авторів, 4896 текстів, загальним об'ємом 17.311.692Б сумарно, 


тексти кожного автора в КСУЇ займають від 991КБ до 1,5МБ: А/ап Ваіаміп(28 /ст., 


О О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є. А. Мельников 81 


155 1561-5359. Штучний інтелект, 2016, М» 2 


991838Б); АІазіаїг Масаопа4(272ст., 10373065); АІехапает 5Зтіт(320ст., 1183679Б); 
Айзаїг  Гуоп(314ст.  1142824Б); | Апагеу | НИО?8ст.  1018305Б); | Сагої! 
Сіасото(364Аст.,  1377804Б);  СПагієз | Адіпеен(36З3ст., 1164119Б); | Роцеїаз 
Визуіпе(290ст., 1032241Ь); ЕШеп Етейіси(3 І9ст., 10123165); Куеїуп Геороі(473ст., 
14996135Б);  Сієпп  У5отегуйе(ЗІ4ст.  1151629Б); | Геопагад | Запіогейі(338ст., 
1687299Б); Гіпаа 5іее(265ст., 11293345); Матсеї! Міспеїзоп(289ст., 9983405); Матіп 
Соулеу(370ст., 1184605). 


Створення цих шести наборів даних дозволяє провести всебічну оцінку 
стабільності роботи системи, починаючи від випадку, коли є всього по 2-3 статті 
кожного автора, до аналізу точності на корпусі з декілька тисяч статей. 

Точність будь-якого алгоритму машинного навчання залежить від того, як було 
поділено дані на навчальний та тестовий набір ((гаїп 58еї та іе5і 5еї), тому було б 
некоректно просто заявити результати на певному наборі даних. Існують методи 
отримання більш надійних результатів. Наприклад, кросвалідація, але цей метод також 
залежить від початкового розбиття даних. При зміні параметру 5еей для функції гапаопт 
результати кросвалідації змінюються, хоч і не так істотно, як у випадку оцінювання з 
єдиним розбиттям на набори ітаїп/евзі. 

Завжди  стабільно-однаковий результат на наборі даних дає алгоритм 
кросвалідації під назвою І.сауе Опе Оші (1.00). Даний алгоритм не залежить від вибору 
параметру 5еей. Суттєвим мінусом ОО є його велика обчислювальна складність: для 
кожного прикладу з набору даних необхідно провести навчання моделі на всіх інших 
даних і потім проводити тестування на даному прикладі. Результат, наближений до 
ІОО, дає метод, що має назву 58ітаріїйед І.О0. 

Зшпаріїйед ГОО виконує перетворення всіх текстів у вектор ознак на самому 
початку роботи і не обчислює їх заново. Потім з даної матриці ознак послідовно 
виділяється по одному вектору, який використовується як тестовий приклад, усі інші 
дані матриці використовуються для навчання моделі. Точність моделі розраховується 
аналогічно до ОО - як середнє арифметичне усіх прикладів. 5ітріїйед 1.О0О допускає 
можливість певного перенавчання (оуегіШпє), оскільки у побудованій системі існують 
складні ознаки, що використовують статистики, зібрані з усього корпусу. У випадку 
ГО0 в ролі корпусу виступає їгаїп 5еї, а у випадку 5ітріїПед 1.00 - весь корпус. Отже, 
складні ознаки будуть містити також і статистики, зібрані з тестових прикладів. На 
великих корпусах вплив даного фактору є дуже несуттєвим, а отже, 5ітріїйед ІО0 дає 
гарне наближення до результатів ОО, проте використовує значно менше 
обчислювальних ресурсів. 


Результати 

Для обчислення результатів тестування використовуються три методи: К-Їоід 
Стоз5уаПдайоп, Зіппріййед ГОО, |ОО. На початку проведення експериментів 
використовувалося класичне значення К-35 в Стоз5Уайдайоп, однак, для невеликих 
наборів даних (РШака5еї, ЮДаїазе:Ї) при такому малому значенні К частина класів 
попадає лише в їтаїп 5еї, а частина - лише в (е5і 5еї, що суттєво викривлює статистику. 
Тому вирішено було використовувати значення К, більше за кількість авторів. Значення 
К-20 не захищає повністю від випадку повного невходження автора в їтаїп 5еї, проте 
дає гарне наближення до цього. Для розбиття наборів даних у К-їЇо|д Стоз5уаПаайоп 
використовується функція КЕоід (п 0145-20, 5пиййе-Ггие, гапдога 5їаіе-1І) з пакету 
зсікі-Ісагп. 
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Результати побудованої системи (Піе Ба5ед уегзіоп) можна побачити в таблиці І. 
Рядок єЇобаї! містить оцінку КІ, обчислену на загальній кількості (гие розійуєз, Га5е 
пебайуєє, Гаї5е розійуез. Рядок сіав5-Ба5зед містить оцінку КІ, обчислену як середнє 


арифметичне оцінок КІ кожного класу (кожного автора). 


Таблиця 1. Результати роботи системи 


20-Коіа Скоз85 Уапаайоп 


Ско85 Кайаайоп ІО0 


5ітрійеа ОО 


Фаіазеїд | Ргесізіоп--0.7297 Ргесізіоп-0.7297 Ргесізіоп-0.9189 
Іора! Кесаї!-0.7297 Кесаї-0.7297 Кесаї-0.9189 
БІ-0.7297ж БІ-0.72978 БІ-0.9189 
| Ргесізіоп-0.6789 Ргесізіоп-0.6844 Ргесізіоп-0.9333 
1а88- ВКесаї-0.7222 Кесаї-0.7222 ВКесаї-0.9222 
Базед | КІ-0.6849ж БІ-0.68818 БІ-0.9200 
Фаїавеї | Реесізіоп--0.7068 Ргесізіоп-0.7120 Ргесізіоп-0.8010 
Іора! ВКесаї-0.7068 Кесаї-0.7120 Кесаї-0.8010 
БІ-0.7068 БІ-0.7120 БІ-0.8010 
| Ргесізіоп-0.7218 Ргесізіоп-0.7355 Ргесізіоп-0.8139 
1а88- Кесаї-0.7014 Кесаї-0.7081 Кесаї-0.7955 
Базед | КІ-0.6937 Б1-0.6992 БІ-0.7918 
Фагазеї2 | Ргесізіоп-0.7205 Ргесізіоп-0.7252 Ргесізіоп-0.7547 
Іора! Весаї-0.7205 Кесаї-0.7252 Весаї-0.7547 
БІ-0.7205 БІ-0.7252 БІ-0.7547 
| Ргесізіоп-0.7185 Ргесізіоп-0.7238 Ргесізіоп-0.7533 
1а88- ВКесаї-0.7107 Кесаї-0.7168 Кесаї-0.7477 
Базед | КІ-0.7062 БІ-0.7127 Е1-0.7442 
Фаіазеї 3 | Реесізіоп--0.7394 Ргесізіоп-0.7413 Ргесізіоп-0.7606 
Іора! ! Весаї-0.7394 Кесаї-0.7413 Кесаї-0.7606 
БІ-0.7394 БІ-0.7413 БІ-0.7606 
| Ргесізіоп-0.7385 Ргесізіоп-0.7384 Ргесізіоп-0.7596 
1а88- ВКесаї!-0.7361 Кесаї-0.7380 Кесаї-0.7580 
Базед | КІ-0.7210 БІ-0.7223 Е1-0.7432 
Фаїазеі4 | Реесізіоп-0.7434 Ргесізіоп-0.7557 
Іора! Кесаї!-0.7434 Кесаї-0.7557 
Е1-0.7434 БІ-0.7557 
| Ргесізіоп-0.7429 Ргесізіоп-0.7556 
1а88- ВКесаї-0.7385 ВКесаї-0.7511 
Базед | БКІ-0.7305 БІ1-0.7438 
Фаіазе!і5 | Реесізіоп-0.7680 Ргесізіоп-0.7725 
Іора! Кесаї-0.7680 Кесаї-0.7725 
БІ-0.7680 БІ-0.7725 
| Ргесізіоп-0.7761 Ргесізіоп-0.7805 
1а88- Кесаї!-0.7656 Кесаї-0.7702 
Базед | КІ-0.7619 БІ-0.7667 


ху даних випробуваннях два класи не розпізналися через малу кількість статей у навчальному 
наборі даних їгаїп 5еї, що суттєво знизило загальну точність системи. 


Загалом, як видно з таблиці, система показала феноменально високу точність 
порівняно з іншими розробками, з огляду на те, що запропонована модель працює з 
великою кількістю авторів (15-20) ії для навчання вимагає відносно малу кількість 


текстів кожного автора (від ЗК). 
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Висновки 

У роботі описується розробка унікальної системи розпізнавання авторства текстів 
англійською мовою. Система працює на корпусах статей з великим числом авторів (15- 
20) 1 демонструє високу точність визначення авторства текстів. При цьому система не 
вимагає великої навчальної вибірки по кожному автору. Мінімальна вибірка може 
сягати лише 5К тексту. Використання моделей машинного навчання та розробка 
унікального профілю ознак авторського стилю дозволили досягнути результату на рівні 
нового 58їаїе-ої-їре-агі. 


Подяка 

Автори статті вдячні компанії РІК і, зокрема, команді проекту Юпріце за 
підтримку в дослідженнях та допомогу в розробці даного алгоритму визначення 
авторства тексту, в його тестуванні та впровадженні в продукти компанії. 
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ВЕ5ОМКЕ 

О.О. Магспепко, А.О. ХуКопепко, Т.У. Воз5ада, Е.А. МеііКоу 

Ацітогяпір Акгібибоп Зу5кет 

Тре рарег іпітодисез5 а зузіега Шаї ідепіїйе5 апа уегійез ацірогінір ої Фе Епеї5П Кехі 
доситепі. ТБе 5узіета Фетопзігаїе5 рієб ассигасу ої бе ашфог5рір ідепійсайоп апа дое5 
пої гедиіге а Іагєе їгаїпіпє 5еї Їог еаср ацірог. ТПе огідіпайу ої їбе ргоро5ед подає! 15 
сацзед Бу Фе ипідце ргобіе ої Бе ацібог айгібиіев їБас аЙом/5 ребіпе ехіга-рієП 
регіогтапсе ассигасу цзіпє пе теїод ої Фе 5иррогі УМесіог Масріпе (5УМ). ТрРе бузіет 
сопіатп5 а 5ес ої сіаз5ійег5 (о деїегтіпе Ше ідепійу ої Ше ацшіфрогя 5їуЇе їп їБе їехі. Оп Ше 
іприй Бе 5узієт 2еї5 а доситепі пагкей улїії а Іабе! ої 5оте ацірог. ТПе зубіет спеск5 Поу 
Бе сштепі уаїшез5 ої Ше їехі айгібиіез соггезропа іо геїегепсе уаїез ої Пе Іабе/еад ацпірог. 
Оп Ше Ба5е ої апаіубіє ої пе іприї їехі айтібиіе5 уаїшез Ше зубіета сопішия ог Фепіез Ше 
Гасб ої Де бепише ашффог5рір. ТРе зубіет Ваз ім/о-Іауег агсріїеските. А( Бе Пт5/ Іеме! а 8еї 
ої сіаз5ійег5 саїсиіаїев Ше аз5еввтепів ої Ше ргобабішу ої Беопоїпо Ше іприї їехі о а 
рагіїсиіаг ацібог (айірог5 їготі Фе 58еї оп урбісП ре 5узіета 15 ітаїпед). Ді Бе зесопа Ісус! Де 
орійтігайоп ргобіег 15 50Їуед Бог Фегегтиіпіпе а 5іпєЇе ашфог ої Фе іприї їехі Бу апаЇугіпе 
зоїийоп5 ої Ше бг5а Ісус! сіаввійег5. ПР (ре рієЮ-Іеус! сіав5ібег Поигеє оці їБає Фе їехі 
сопіаїп5 ріесе5 Шаї 5суПп5іисаПу адоп'ї Беїопє 10 Ше десіагед ацірог Ше 5узіет таке5 ап 
арргоргіаге сопсТа58іоп. Масііпе Ісагпіпє ц5е5 плиій-Ісуєі Геашште8 ої Фе їехі: (1) рипсішайоп 
Геашгез (рипсішайоп 5кайяйсв); (2) плогрроїовіса! Беакигез (Пенег сотіпацопя 5кайяіїсв); (3) 
Іехіса! Геаїиге5 (М/-сгат5, 5Гор-ууогд8 5їайяіся, ес.); (4) зупіасііс Геакигез (рагіє ої зреесі 
М-бтате, 5упіасіїс дерепдепсієз йедцепсу, еїс.). 
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